AI som resonnerer – andrewaage.com

De siste månedene har vi sett store fremskritt innen store språkmodeller (LLMs), som på kort tid har oppnådd eksepsjonelle resultater spesielt innen matematikk, logikk og koding. De ledende AI-selskapene som f.eks. OpenAI, DeepSeek, xAI og Anthropic har alle lansert nye AI-modeller den siste tiden med betydelig forbedret intelligens.

Utviklingen skyldes i stor grad overgangen fra det vi kan kalle system 1 AI til system 2 AI, eller såkalte “reasoning models”. Denne klassifiseringen i to systemer er inspirert av Daniel Kahnemans idé om tankesystemer, hvor system 1 er raskt, intuitivt og ubevisst, mens system 2 er langsommere, mer analytisk og krever mer kognitiv kapasitet (ref. Thinking, Fast and Slow).

Uobserverte data

Et problem med for store språkmodeller er at de er trent på all observerbar data på internettet, men den menneskelige tankerekken for å komme frem til en gitt tekst, kode eller annet innhold er vanligvis ikke observert og dokumentert. F.eks. vil AIen ha lest veldig mange artikler, men ikke ha fått med seg all resonneringen og planleggingen som ligger til grunn for den artikkelen - og dermed ikke være i stand til å produsere innhold med like høy kvalitet. Dette har de nyeste resonneringsmodellene forsøkt å forbedre.

“AI som resonnerer”. Bilde er AI-generert med bruk av Flux.

Forklaring av systemene

System 1: AI-modellene svarer på spørsmål umiddelbart, og bruker i utgangspunktet like mye prosesseringskraft på enkle som vanskelige forespørsler.
System 2: AI-modeller som tenker før de svarer, og er trent til å tenke lenger på oppgaver som oppfattes som krevende. Dette omtales ofte som test-time compute.

Det som skjer i praksis er at system 2 modellene generer en tankerekke før svaret returneres til brukeren. I tankerekken vil AIen tenke gjennom alternative løsninger, dobbeltsjekke sine egne antakelser med mer. Det har blitt vist at ved å øke tenketiden øker også presisjonen på de aller fleste vanskelige oppgaver. Figuren under viser f.eks. hvordan OpenAI-modellen o1 forbedrer seg både med mer trening, men også ved å øke tenketiden.¹

Mens system 2 AI oppnår bedre resultater på de fleste tester eller benchmarks, er de (alt annet like) dyrere i bruk grunnet økt prosesseringskraft brukt på å generere tankerekken. Samtidig er det mye som tyder på at system 2 modellene krever mindre prosesseringskraft under treningsfasen for å oppnå intelligens som tilsvarer en betydelig større system 1 modell. Den nylig lanserte OpenAI-modellen GPT-4.5 (en system 1 modell), som trolig er den største AI-modellen noengang trent, gjør det f.eks. dårligere enn betydelig mindre o3-mini på mange områder.

Under er et eksempel på en slik tankerekke generert av denne typen modell, når Gemini Flash 2.0 Thinking får et typisk spørsmål som de tidligere system 1 modellene kunne bli lurt av.

Hva er tyngst av 1 kilo fjær og 1 kilo bly?

Tankerekke: The question is in Norwegian and asks “Hva er tyngst av 1 kilo fjær og 1 kilo bly?”.

This translates to “What is heavier, 1 kilo of feathers or 1 kilo of lead?”. This is a classic trick question designed to make people think about density rather than mass.

The question is about weight, and the unit given is “kilo”, which is a unit of mass. The prefix “tyngst” in Norwegian relates to weight, but in everyday language, people often use “weight” and “mass” interchangeably. In physics, weight is the force of gravity acting on mass. However, since we are comparing them on Earth, the gravitational acceleration is the same for both. Therefore, comparing their masses is equivalent to comparing their weights in this context.

The question explicitly states “1 kilo fjær” and “1 kilo bly”. “1 kilo” is the same mass in both cases. Therefore, 1 kilo of feathers and 1 kilo of lead have the same mass. Since weight is directly proportional to mass (Weight = mass * gravity), and gravity is assumed to be constant in this comparison, then 1 kilo of feathers and 1 kilo of lead also have the same weight.

The trick is that people might be tempted to think of lead as “heavy” and feathers as “light” in general, but the question specifically states the mass is 1 kilo for both. The answer should state that they weigh the same.

To make it clear, I can add an explanation about density and volume, although it’s not directly asked in the question. Lead is much denser than feathers. This means that 1 kilo of lead will occupy a much smaller volume than 1 kilo of feathers. If someone were to lift them, 1 kilo of feathers would be much bulkier and harder to handle due to its large volume, which might feel heavier in a practical sense because of the size and air resistance, but the weight as a physical quantity would be the same.

However, the question is strictly about weight (tyngst), and mass is directly given in “kilo”. Therefore, the most straightforward and correct answer is that they weigh the same.

Svar:

De veier like mye.

Utvikling

Figuren² viser hvordan de ledende AI-modellene har forbedret seg på ulike benchmarks på kort tid. Bare i løpet av 2 år observerer vi f.eks. at de beste AI-modellene har gått fra under 20% treffsikkerhet på avansert matematikk (AIME 2024), til nesten 100%.

Hentet fra International AI Safety Report, 2025.

AI-benchmarks

Et «benchmark» er et sett med standardiserte tester som brukes for å måle og sammenligne hvor godt ulike AI-modeller presterer. Disse inneholder typisk spørsmål og svar med en kjent fasit, slik at man kan måle modellens treffsikkerhet. Disse testene gir en felles referanseramme, slik at resultatene kan vurderes på en rettferdig måte. Et problem med disse benchmarkene er at i noen tilfeller har AI-selskapene (angivelig) inkludert fasitene i treningsdataen, og dermed jukset (modellen har memorert fasiten istedenfor å lære seg konseptene). Heldigvis finnes det benchmarks som forsøker å hindre slik juksing, bla. ved at spørsmålene oppdateres kontinuerlig.

Det finnes en del uavhengige benchmarks som evaluerer prestasjonen til ulike AI-modeller. Etter min erfaring er det livebench.ai³ som best reflekterer den faktiske intelligensen hos de ulike AI-modellene på tvers av kategorier. Tabellen under viser status på de 15 beste AI-modellene fra livebench, hvor vi ser at system 2 AI-modeller dominerer på de fleste områder. GPT-4.5 kommer her ut som den beste system 1 modellen, men den er også betydelig dyrere i bruk enn de andre modellene på listen.

Vis koden

library(tidyverse)
library(gt)

df <- readxl::read_excel("livebench.xlsx") |> 
  janitor::clean_names() |>
  slice_head(n = 15) |> 
  mutate(
    across(contains("average"), as.numeric),
    model_type = case_when(
      str_detect(model, "o1") ~ "System 2",
      str_detect(model, "o3") ~ "System 2",
      str_detect(model, "thinking") ~ "System 2",
      str_detect(model, "r1") ~ "System 2",
      .default = "System 1"
  )) |> 
  select(model, model_type, organization, everything())

gt(df) |> 
  gt::data_color(
    columns = is.numeric, 
    method = "numeric",
    palette = "RdBu") |> 
  opt_stylize(style = 3) |> 
  gt::tab_footnote("Data fra livebench.ai, hentet 2. mars 2025.") |> 
  cols_label(
    model = "Modell",
    model_type = "Type",
    organization = "Selskap",
    global_average = md("Total<br>score"),
    reasoning_average = "Logikk",
    coding_average = "Koding",
    mathematics_average = "Matte",
    data_analysis_average = "Analyse",
    language_average = "Språk",
    if_average = md("Instruks<br>følging")
  ) |> 
  tab_options(
    table.font.size = px(12),
    data_row.padding = px(2),
    column_labels.padding = px(2)
    )

Modell	Type	Selskap	Total score	Logikk	Koding	Matte	Analyse	Språk	Instruks følging
claude-3-7-sonnet-thinking	System 2	Anthropic	76.10	87.83	74.54	79.00	74.05	59.93	81.25
o3-mini-2025-01-31-high	System 2	OpenAI	75.88	89.58	82.74	77.29	70.64	50.68	84.36
o1-2024-12-17-high	System 2	OpenAI	75.67	91.58	69.69	80.32	65.47	65.39	81.55
deepseek-r1	System 2	DeepSeek	71.57	83.17	66.74	80.71	69.78	48.53	80.51
o3-mini-2025-01-31-medium	System 2	OpenAI	70.01	86.33	65.38	72.37	66.56	46.26	83.16
gpt-4.5-preview	System 1	OpenAI	68.95	71.08	75.18	69.33	64.33	61.45	72.33
gemini-2.0-flash-thinking-exp-01-21	System 2	Google	66.92	78.17	53.49	75.85	69.37	42.18	82.47
gemini-2.0-pro-exp-02-05	System 1	Google	65.13	60.08	63.49	70.97	68.02	44.85	83.38
gemini-exp-1206	System 1	Google	64.09	57.00	63.41	72.36	63.16	51.29	77.34
o3-mini-2025-01-31-low	System 2	OpenAI	62.45	69.83	61.46	63.06	62.04	38.25	80.06
qwen2.5-max	System 1	Alibaba	62.29	51.42	64.41	58.35	67.93	56.28	75.35
gemini-2.0-flash	System 1	Google	61.47	55.25	53.92	65.62	67.55	40.69	85.79
deepseek-v3	System 1	DeepSeek	60.45	56.75	61.77	60.54	60.94	47.48	75.25
gemini-2.0-flash-exp	System 1	Google	59.26	59.08	54.36	60.39	61.67	38.22	81.86
claude-3-5-sonnet-20241022	System 1	Anthropic	59.03	56.67	67.13	52.28	55.03	53.76	69.30
Data fra livebench.ai, hentet 2. mars 2025.

Historikk

Ikke lenge etter at de første språkmodellene ble lansert, som f.eks. ChatGPT 3.5, ble det oppdaget at man kunne forbedre svaret på responsen ved å be modellen “tenke seg om” før den svarte. Dette trikset, og varianter av det, blir ofte referert til som “Chain-of-Thought” (CoT). OpenAI ønsket å ta dette et steg videre - istedenfor at brukerne måtte be modellen om å tenke, trente de en ny AI-modell som var spesifikt optimert for å tenke riktig når det trengs.

Den første system 2 modellen ble lansert av OpenAI høsten 2024, da de lanserte AI-modellene o1-preview og o1-mini (en mindre og raskere versjon). Disse modellene viste betydelig økt evne til å løse vanskelige oppgaver sammenlignet med selskapets ledende AI-modell til da, gpt-4o. Senere kom den ferdige versjonen o1 rett før jul, mens o3-mini kom bare noen uker senere - som nå er deres ledende modell på de fleste områder på flere ulike benchmarks. ⁴

OpenAI har annonsert at GPT-4.5, deres klart største modell noensinne (angivelig trent på ca. 10x mer compute enn GPT-4), er den siste rene system 1 modellen de lanserer. Senere er målet å forene de to ulike modelltypene, slik at brukeren ikke må forholde seg til valget - istedenfor vil den best egnede modellen velges automatisk. ⁵

OpenAI har ikke delt mange detaljer om hvordan o1/o3 ble trent, og skjuler hovedsakelig den interne tankerekken (slik at man kun ser en oppsummert versjon). Noen spekulerer i at dette gjøres for å unngå kopiering fra konkurrenter.

Likevel tok det ikke lang tid før de største konkurrentene kom med tilsvarende System 2 modeller, for eksempel:

Google har lansert Gemini 2.0 Flash thinking
DeepSeek har lansert R1 - som tok markedet med storm (AI-modellen i seg selv var egentlig ikke noe revolusjonerende, men i motsetning til OpenAI tilgjengeliggjorde de sin system 2 modell gratis)
xAI har lansert Grok-3-thinking
Anthropic har lansert Claude Sonnet 3.7 - en hybridmodell som kan konfigureres både med og uten resonnering.

Jevnt over presterer alle disse modellene på et svært høyt nivå på ulike benchmarks, som vi så på oversikten i tabellen over. Denne typen modeller er likevel i en tidlig fase, og vi kan nok forvente betydelige forbedringer innen kort tid. OpenAI har f.eks. uttalt at de har en intern AI-modell som er rangert som topp 50 i verden på konkurransenivå koding - mens o1 “kun” var topp 10 000. ⁶

Trening med forsterkende læring

Det er to sentrale faser i treningen av en LLM, henholdsvis pre-training og post-training:

Pre-training: Dette er den mest compute-intensive fasen, hvor AIen lærer seg å predikere det neste ordet (eller strengt tatt et token) i en rekke, basert på store mengder data hentet fra internettet, bøker med mer. I denne fasen lærer AIen seg språk, fakta om verden osv.
Post-training: Språkmodellen fine-tunes til å utføre spesifikke oppgaver, som å følge instruksjoner, oppføre seg som en assistent eller mer nylig - lære seg å resonnere.

Med de tidligere språkmodellene var det først og fremst å skalere opp pre-training som var fokuset, med stadig mer data og større modeller (flere parametere). Etter hvert viste det seg at nytten i å skalere opp ytterligere fra GPT-4 nivået, fremsto som forholdsvis marginal. Fokuset har dermed skiftet over på mer og nye metoder for post-training. Nyheten i system 2 modeller er at det i post-training fasen også blir brukt forsterkende læring (“reinforcement learning”) for å optimere modellen sine tankerekker, kombinert med spesifikk eksempeldata som viser hvordan mennesker tenker når vi løser vanskelige problemer.

Forsterkende læring i denne konteksten innebærer (veldig forenklet) at AI-modellen blir gitt et bestemt problem, f.eks. en matematikkoppgave, hvor enten fasiten er kjent eller andre metoder benyttes for å bestemme om svaret var godt eller ikke (f.eks. en “kritiker-modell” som evaluerer svaret). Algoritmen prøver deretter å komme frem til det riktige svaret ved å teste ut mange ulike måter å “tenke” på, og oppdaterer parameterne underveis i et forsøk på å maksimere sannsynligheten for gode resultater.

Dette kan gjøres på ulike måter. DeepSeek brukte f.eks. en nyvinnende metode kalt GRPO (“Group Relative Policy Optimization”), som var noe av bakgrunnen for at de klarte å trene en AI-modell med noe lavere prosesseringskraft enn tidligere frontmodeller. ⁷ Veldig forenklet kan vi si at prosessen for forsterkende læring ser noe slikt ut:

flowchart TD
    A(Spørsmål til AIen) --> B(Generer ulike responser)
    B --> C1(Beregn reward for treffsikkerhet)
    B --> C2(Beregn reward for format)
    C1 --> D(Beregn total score)
    C2 --> D
    D --> E(Oppdater modellen)
    E --> A

Betydning

At AI-modellene blir smartere har flere implikasjoner. For det første blir de bedre på alle oppgaver som krever høyere kognitiv kapasitet - f.eks. koding, søk, matematikk, kritisk tenkning og brainstorming, slik at man kan lage enda bedre AI-assistenter, som potensielt kan spare brukere for mer tid i daglige oppgaver.

En mulig konsekvens er også at såkalte AI-agenter (AI som kan planlegge og utføre oppgaver) blir mer virkningsfulle, og vil realistisk sett kunne utføre flere og vanskeligere oppgaver enn før. OpenAIs Deep Research og Anthropics Claude Code er gode eksempler på AI-agenter som er styrt av system 2-modeller. Denne utviklingen kan innebære at vi etter hvert kan automatisere langt flere oppgaver enn i dag ved bruk av AI.